library(tidyverse)
library(here)
library(plotly)
theme_set(theme_minimal()) 

A seguinte análise busca, ainda, entender um pouco mais sobre o uso da Cota para o Exercício da Atividade Parlamentar (CEAP). Uma melhor explicação dos dados, assim como a primeira parte desta análise pode ser encontrada aqui.

Dados

Inicialmente, vamos importar os dados.

gastos <- read_csv(here("data/dadosCEAP.csv"),
                   progress = FALSE)

gastos %>% names()
##  [1] "nomeParlamentar" "idCadastro"      "sgUF"           
##  [4] "sgPartido"       "tipoDespesa"     "especDespesa"   
##  [7] "fornecedor"      "CNPJCPF"         "tipoDocumento"  
## [10] "dataEmissao"     "valorDocumento"  "valorGlosa"     
## [13] "valorLíquido"

Vamos adicionar, agora, a região de cada estado, para melhorar as futuras visualizações dos dados.

# adiciona uma nova variável contendo a região à qual cada estado pertence
gastos <- gastos %>% 
  mutate(regiao = case_when(
    sgUF %in% c("AC", "AP", "AM", "PA", "RO", "RR", "TO") ~ "Norte",
    sgUF %in% c("AL", "BA", "CE", "MA", "PB", "PE", "PI", "RN", "SE") ~ "Nordeste",
    sgUF %in% c("DF", "GO", "MT", "MS") ~ "Centro-Oeste",
    sgUF %in% c("ES", "MG", "RJ", "SP") ~ "Sudeste",
    sgUF %in% c("PR", "RS", "SC") ~ "Sul"
  ))

Perguntas

Quais estados mais utilizam a CEAP com despesas com combustíveis?

gastos %>% 
  na.omit() %>% # elimina as observações onde alguma das variáveis naão possui nenhum valor
  filter(tipoDespesa == "COMBUSTÍVEIS E LUBRIFICANTES.") %>% # mantém somente as observações referentes à este tipo de despesa
  group_by(sgUF, regiao) %>% 
  summarise(total = sum(valorLíquido)) %>% # calcula o total gasto em cada estado
  ungroup() %>% 
  arrange(-total) %>%  # ordena as observações de forma descrescente em relação ao total gasto
  ggplot(aes(x = reorder(sgUF, total), 
             y = total,
             fill = regiao)) +
  geom_col() +
  guides(fill = guide_legend("Regiao")) +
  labs(y = "Total gasto com combustíveis",
       x = "Estado") +
  theme(axis.text.x = element_text(size = 7)) +
  facet_wrap(~ regiao,
             scales = "free")

O estado de Minas Gerais é o estado onde os deputados mais utilizam a CEAP para despesas com combustíveis. Observando o gráfico, os estados que mais gastam são estados muito populosos. Sabendo que esses estados também possuem muitos deputados, existe alguma associação entre o número de deputados e a utilização da CEAP? Podemos verificar se essa associação existe através de um gráfico de dispersão.

deputados_gastos <- gastos %>% 
  na.omit() %>% 
  group_by(sgUF, regiao) %>% 
  mutate(total = sum(valorLíquido)) %>% 
  select(sgUF, regiao, nomeParlamentar, idCadastro, total) %>% 
  unique() %>%
  mutate(quantidade_deputados = n()) %>% 
  unique()

deputados_gastos %>% 
  plot_ly(x = ~quantidade_deputados,
          y = ~total,
          color = ~regiao,
          text = ~paste("Estado: ", sgUF,
                         "<br>Deputados: ", quantidade_deputados,
                         "<br>Região: ", regiao),
          type = 'scatter')

Podemos observar, pelo gráfico, que a medida que a quantidade de deputados aumenta, a quantidade utilizada da CEAP também aumenta. Logo, podemos dizer que há associação entre essas variáveis. Uma forma de medir essa associaçao é utilizando uma medida chamada de correlação linear. A correlação linear mede a relação linear entre elas e indica a força e a direção desse relacionamento. Essa medida é um valor entre -1 e 1 e é classificada da seguinte forma:

  • A associação é dita fraca se o módulo de seu valor aproxima-se de 0, e forte quando aproxima-se de 1.
  • Se o valor da correlação é negativo, os valores de uma variável diminuem quando os da outra aumentam, e, se for positivo, aumentam quando os valores da outra variável também aumentam.
cor(x = deputados_gastos$quantidade_deputados,
    y = deputados_gastos$total,
    method = "pearson")
## [1] 0.9079092

Como o valor dessa correlação é 0.90, essa associação é forte e positiva. Então, quanto maior a quantidade de deputados em um estado, maior a utilização da CEAP.

Quais candidatos são responsáveis pela maior parte dos gastos de seu estado?

gastos %>% 
  na.omit() %>% 
  group_by(nomeParlamentar, sgUF) %>% 
  mutate(deputado = paste(nomeParlamentar, " (", sgUF, ")", sep = ""), 
         total_candidato = sum(valorLíquido)) %>% #gastos de um deputado
  ungroup() %>% 
  group_by(sgUF) %>% 
  mutate(total_estado = sum(valorLíquido), # total utilizado do CEAP por estdo
         porcentagem = (total_candidato / total_estado)*100) %>% # porcentagem do gasto de um deputado do total gasto por estado
  select(deputado, 
         sgPartido, 
         total_candidato, 
         sgUF, 
         regiao, 
         total_estado, 
         porcentagem) %>% 
  unique() %>% 
  arrange(-porcentagem) %>% # ordena as observações de forma descrescente pela proporção de gastos de um deputado
  slice(1) %>% # mantém somente o deputado que mais gasta de cada estado
  ggplot(aes(x = reorder(deputado, porcentagem),
             y = porcentagem,
             colour = regiao)) +
  geom_point(size = 6,
             alpha = .7) +
  geom_segment(aes(x = deputado,
                   xend = deputado,
                   y = 0,
                   yend = porcentagem)) +
  geom_text(aes(label = paste(round(porcentagem,1), "%", sep="")),
            color = "black",
            size = 3,
            position = position_stack()) +
  guides(color = guide_legend("Regiao")) +
  labs(y = "Porcentagem gasta do total",
       x = "Deputado") +
  coord_flip()

O deputado Marcos Rotta do estado do Amazonas, que possui 11 deputados, gasta sozinho quase 30% de todo o total utilizado da CEAP em seu estado. É importante observar aqui que os estados dos deputados com maiores porcentagens de gastos possuem menos deputados dos que os de porcentagem baixa.